ACL 2020 | 消除文本分类问题中歧视现象的研究
©PaperWeekly 原创 · 作者|张冠华、白冰
研究机构|哈工大/腾讯
研究方向|自然语言处理
导语
文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。最近,学术界发现文本分类数据集常常包含对某些群体的歧视,这是因为这些数据集反映了人类社会中普遍存在的偏见。
机器学习在这些有歧视的数据集中训练时,也会学习到这些歧视的模式,从而产生歧视性的预测结果。比如,模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。
论文标题:Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting
论文链接:https://arxiv.org/abs/2004.14088
代码链接:https://github.com/ghzhang233/Non-Discrimination-Learning-for-Text-Classification
文本分类问题是自然语言处理中的一个基础问题,旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。
2.1 无歧视分布
如前面所说的,数据集中的歧视现象是人类社会中的偏见的映射,我们称有偏数据集中的分布为有歧视分布。
现实世界是有歧视的,对应地,我们可以假设存在一个无歧视的理想世界,而现实世界则是理想世界的一个歧视性的映射。进一步地,我们可以假设存在一个无歧视分布反映了理想世界,而有歧视分布是从无歧视分布中遵循着歧视性的规则抽样得到的。
2.2 无歧视模型
我们可以证明当群体信息完全包含在句子中时,满足一致性的学习器渐进地不受这个假设影响。
实验
4.1 实验设置
对于 Toxicity Comments,为了与其他工作中的结果对齐,我们使用与其一样的 CNN 网络。而对于另外两个数据集,我们使用单层 128 维的 LSTM 模型来作为 Baseline。
此外,我们在 Sexist 中与数据补充方法(Swap)方法进行了比较,在 Toxicity Comments 和 Jigsaw Toxicity 中与数据补充方法(Supplement)进行了比较。
Sexist Tweets 从表 3 中,我们可以发现我们的加权方法在 FPED 和 FNED 上显著优于 Baseline,说明我们的模型能有效消除模型歧视。数据增强方法在 FPED 和 FNED 上强于加权方法,但是在 IPTTS AUC 上也更低,这说明 Swap 去歧视是以牺牲模型性能为代价的。
Toxicity Comments 从表 4 中,我们可以发现加权方法在 FPED, FNED 和 IPTTS AUC 上均优于 Baseline,说明了我们方法的去歧视能力。
同时,我们注意到我们的加权方法的去歧视效果甚至比数据补充方法还略好,而数据补充方法是需要针对性补充额外的数据的!此外,我们注意到加权方法的 Orig. AUC 与另两种方法相差不大,说明我们方法对模型性能损失很小。
总结
在本文中,我们分析了文本分类中的歧视问题,给出了问题的形式化定义,并提出了将歧视问题转化为采样偏差(Selection Bias)问题。基于这个视角,我们提出一种基于样本加权的无需额外数据的去歧视方法。
更多阅读
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。